#AI 模擬
驕傲藏不住!Google CEO劈柴哥5.20深夜開大:15項重磅炸彈,兩大Gemini前沿方向!中國隊Xreal成為GoogleXR原型機代表
台北時間5月21日凌晨1點,Google CEO Sundar Pichai 準點走進坐落於加州山景城的著名露天圓形劇場 Shoreline Amphitheatre,發表了 Google IO 2025 大會的主題演講。全程一部定影的時間, 115 分鐘,可謂是給 5.20 的深夜奉上了一場別樣的Google之聲。先說整體感受,整體上如大部分媒體所預料的:Android 已經退出焦點,AI 可以說是全部。與去年不同,今年的 IO 大會可以說主打的就是“智能代理與個性化AI”,簡單理解,就是Google開始強調大模型的行動能力與個性定製上,正如Sundar 開場總結的:我們正處於 AI 平台變革的新階段。幾十年的 AI 理論和基礎研究,正在快速走進現實,融入人們日常生活和工作中,從搜尋、助手、視訊通訊、開發者工具到應用生態,全面落地。這正是 Gemini 時代的意義所在。全程跟下來,多達 15 項重磅更新和發佈。 雖然許多有關Gemini模型、Agent、A2A 協議等其實早在一周甚至更早之前,Google已經等不及搶先發佈,但仍有許多新官宣可圈可點。比如:Gemini 2.5 Pro 新增“深度思考模式”、可主動多模態感知和響應的下一代 AI 助理 Project Astra,以及具備“教與復現”功能、可以同時管理多達 10 項任務的智能網頁任務代理 Project Mariner。再比如在全面 AI 升級上面,不得不提的Google搜尋 AI 模式、Google瀏覽器融合 Gemini 按鈕,將會化身可智能總結網頁內容、協助瀏覽的 AI 瀏覽器;還有前不久被 YC 合夥人吐槽的 Gmail 信箱的智能回覆也迎來了個性化升級。再有,就是原來的多模態工具如 Imagen 和 Veo 大升級,並上線了一款 AI 影視創作 App Flow。最後,值得一提的是,在智能眼鏡方面,Xreal 攜手 Google 打造了一款基於 Android XR 平台的智能眼鏡 Project Aura。話不多說,開始為大家獻上精彩內容。在 Google,每一天都是雙子座季節過去的半年,可以說是Google反擊 OpenAI 強有力的半年。Sundar 非常自豪地把 Gemini 最新的進展放到了演講中最開始的部分。“我聽說今天是雙子座季節的開始。我真的不太清楚這有什麼大不了的。在Google,每一天都是 Gemini 季節。”的確,自去年以來,Google已經宣佈了超過12個模型和研究突破,並行布了超過20個主要的人工智慧產品和功能。而且 Gemini 的性能也取得了階梯式變化。Sundar介紹道,“Elo分數,作為進步的一個衡量標準,自第一代 Gemini Pro以來,已經上升了超過300分,而今天的Gemini 2.5 Pro在所有類別的LM排行榜上都名列前茅。”從倉皇應戰 OpenAI 到如今的全面“屠榜”,也許感嘆一句Google:“斗宗強者,強悍如斯”也不為過。簡單幫劈柴哥秀一下 Gemini 在許多基準測試中的 Sota 成績。就以現下最火的編碼方為例。更新後的 2.5 Pro 在 Web Dev Arena 上達到了第一名,現在比之前的版本高出 142 個Elo分數。同時,它在頂級編碼平台上受到了很多歡迎,比如在 Cursor上,Gemini 是今年增長最快的模型,每分鐘產生數十萬行被接受的程式碼。甚至前不久,Gemini 完成了《精靈寶可夢藍》的通關,獲得了所有 8 個徽章,穿越勝利之路,擊敗了四天王和冠軍。劈柴哥很調皮地表示:這標誌著我們向“API(Artificial Pokémon Intelligence)”又邁進了一步。對於過去一年的成績,劈柴哥信心爆棚:“世界採用人工智慧的速度比以往任何時候都快。 去年此時,我們通過我們的產品和 API 每月處理 9.7 兆個token。  如今,這個數字是480兆。一年之內就增長了50倍。”兩個 Gemini 的前沿研究方向不過小編不慣著Google的小傲嬌情緒,還是直接奔重點要緊。Google DeepMind 宣佈在Gemini 2.5 Pro 中引入了一種新的模式——深度思考(Deep Think Mode),它將模型性能推向了極限,帶來突破性的成果,專為複雜數學、程式設計問題設計,可在回應前先考慮多種假設,而且由於 Gemini 從一開始就具有多模態的特性,所以它在主要基準測試中也表現出色。據悉深度思考模式使用了Google最新的思考和推理研究,包括平行技術等。但由於尚需前沿安全評估方面還需要得到專家反饋,所以目前只能以 API 的形勢進行定向邀測。不過一個利多大眾的消息是,輕量版 Gemini 2.5 Flash 也已面向所有 Gemini 應用使用者開放。除了“深度思考”,有關Google在模型方面的另一個前沿研究,則是世界模型。據 DeepMind 首席執行官 Demis Hassabis介紹,“我們正在努力將其擴展為一個世界模型,這是一個能夠通過模擬世界的某些方面來制定計畫和想像新體驗的模型,就像大腦所做的那樣。這是我一直以來的熱情所在。”Hassabis 表示遊戲領域是 AI 模擬世界的不錯的場景。Google正在通過開創性的工作,讓代理掌握複雜的遊戲(如圍棋和星海爭霸)來朝著這個方向邁出了一步,最近我們推出了 GE2 模型,能夠從單個圖像提示生成 3D 模擬環境,你可以與之互動。而這些能力正在 Gemini 中出現,它利用其世界知識和推理來表示自然世界中的事物。此外,Google最先進的視訊模型對直觀物理有深刻的理解,比如重力、光和材料的行為。它在跨幀保持精準性方面非常令人難以置信。即使提示變得有點創意,比如這個人是由救生圈組成的,它也知道該怎麼做。Hassabis 認為,對物理環境的理解也將對機器人技術至關重要。人工智慧系統將需要世界模型,以便在現實世界中有效地運作。因此,Google還基於 Gemini 進行了微調了一個專門的模型,讓它教機器人做有用的事情,比如抓取、遵循指令,並在飛行中調整到新任務,人類可以在 AI 沙盒中與之互動。使 Gemini 成為一個完整的世界模型,是解鎖一種新人工智慧的關鍵一步,這種人工智慧在你的日常生活中是有幫助的,它智能且理解你所處的環境,並且可以代表你在任何裝置上採取行動。“這是我們對Gemini應用程式的最終願景,將其轉變為一個通用的人工智慧助手,一個個性化的、主動的、強大的人工智慧。這是我們通往通用人工智慧道路上的一個關鍵里程碑。”在這方面, AI 助理 Project Astra 則是Google從去年開始一直在探索的項目。AI 助理 Project Astra 此前能呼叫手機攝影機識別物體,現在升級版原型還能在無需你發問的情況下,主動完成任務或指出錯誤,比如作業中發現計算錯誤便直接提醒。據悉,Google對 Astra 還升級了語音輸出,使其更加自然,加入了原生音訊,並改進了記憶並增加了電腦控制能力。關於 Astra,會上還給出了一個非常親民的用例:幫助一位美國小夥兒修理自行車。Project Mariner:智能網頁任務代理Project Mariner 是 Google 推出的 AI 代理工具,旨在幫助使用者自動化處理網頁上的多項任務,提升線上工作效率。主要功能包括:多工處理:Mariner 現在可以同時管理多達 10 項任務,幫助使用者在瀏覽網頁時實現更高效的操作 。“教與復現”功能:使用者只需演示一次任務流程,Mariner 就能學習並在未來自動執行類似任務,減少重複操作,提高工作效率。Gemini 應用中的“代理模式”:在 Gemini 應用中引入的“代理模式”允許使用者分配複雜任務給 AI 代理獨立完成,例如在 Zillow 上尋找符合特定條件的公寓列表等 。即將推出:Mariner 的實驗版本將很快向訂閱使用者開放,預計在今年夏季更廣泛地向公眾發佈 。搜尋體驗全面重塑AI 模式面向美所有使用者開放對於Google搜尋業務,會上劈柴哥宣佈推出了全新的 “AI 模式”,這是一個全新標籤頁,也是Google對傳統搜尋體驗的一次重大升級。主要亮點包括:AI 生成的搜尋摘要:AI 模式能夠為使用者提供由 AI 生成的搜尋結果摘要,幫助使用者更快速地獲取所需資訊 。更自然的互動體驗:通過引入對話式的搜尋介面,使用者可以像與助手對話一樣進行搜尋,提升使用體驗。廣泛的使用者覆蓋:AI 模式現已在美國上線,預計將逐步推廣到更多地區 。今年夏天,Google 還將在 AI Mode 中測試深度搜尋、財經/體育查詢圖表生成功能,以及購物助手等新功能。那這裡小編再劃一個重點,在搜尋體驗升級方面,Google再次強調了 Search Live 即時互動搜尋的概念。結合 Project Astra,Google推出了 Search Live,使用者可在 AI Mode 或 Lens 中,開啟“Live”模式,對準相機畫面與搜尋助手即時對話。就在上月,Google已向 Android 使用者免費開放 Gemini Live 螢幕共享功能,本月起 iOS 使用者也可免費使用。Google多模態產品:Imagen 和 Veo 大升級,影視創作工具上線這次主題演講上,Google還發佈了全新 Imagen 4,在文字生成圖像表現更佳,支援多種圖片比例匯出(正方形、橫版等)。同時,下一代 AI 視訊生成器 Veo 3,將支援視訊和音訊同時生成,Veo 2 也新增了攝影機控制、物體移除等功能。值得注意的是,Google還上線了一款名為 Flow 的 AI 影視創作應用,結合 Veo、Imagen 和 Gemini,使用者可通過文字或圖片提示生成 8 秒 AI 視訊短片,並通過內建場景編輯器拼接成更長影片。(是不是想到了快手和抖音的視訊剪輯工具~)這還沒完,作為全面手,在3D方面,Google將 Project Starline(一款 3D 視訊通話艙)正式更名為 Google Beam。Google Beam 使用一種新的視訊模型將 2D 視訊流轉換為逼真的 3D 體驗,劈柴哥 X 上表示,近乎完美的頭部跟蹤,精確到毫米,每秒 60 幀,全部即時, 最終呈現的是沉浸式對話體驗。未來,它將內建於 HP 品牌裝置中,配備光場顯示器和 6 個攝影機,即時生成通話對象的 3D 圖像,包括 Deloitte、Duolingo 和 Salesforce 在內的企業,已計畫將 Beam 部署到辦公環境中。那些已經不太新鮮的AI產品發佈當然,強如Google,同樣也免不了俗,也做到款款都是炸裂的精品。一些 AI 發佈都是市面上常見的 AI 應用。比如發佈了 Stitch,一款 UI 介面的 AI 生成工具,只需提供主題、描述,或上傳線框、草圖、UI 截圖,即可自動生成介面原型。現已上線 Google Labs。再比如購物中的 AI 試穿的功能,使用者上傳全身照後,可預覽不同上衣、褲子、裙子等穿在身上的效果,由 AI 模型精準識別人像與服飾細節。這不都是淘寶/京東玩剩下的嘛。不過還是要提醒,Google有一種玩法還挺不錯:即上文提到的 AI Mode 中購物,甚至通過 agentic checkout 功能,自動幫使用者下單。Chrome整合Gemini AI,自動更新被洩漏的密碼對於一直被傳言有被分拆危險的 Chrome 而言,Google也有了一些不錯的升級動作。從 5 月 21 日起,Google AI Pro 和 Ultra 訂閱使用者可在 Chrome 中啟用 Gemini 按鈕,智能總結網頁內容、協助瀏覽。目前支援同時管理 2 個標籤頁,年底前將擴展更多。第二塊令人叫好的則是 Chrome 將自動更新被洩露密碼。Chrome 今年內將推出新功能,檢測到密碼洩露時,自動生成強密碼並更新至支援的網站,操作前會徵求使用者確認。Gmail 智能回覆再升級以使用者個人風格回覆郵件此前,Gmail 智能回覆功能被 YC 合夥人吐槽為“無馬的馬車”,現在Google很聽勸,已經對其進行了更新。更新後,AI 將從使用者收件箱和 Google Drive 中提取資訊,自動撰寫更符合使用者個人風格的郵件內容。還能識別對話對象語氣,像給老闆郵件就自動建議更正式措辭。主打一個私人定製!新版將於 7 月在 Google Labs 登陸網頁版、iOS 和 Android。Android XR: 將 Gemini 帶入眼鏡和耳機中國隊 Xreal 展示 Project Aura 原型這次大會,有關智能眼鏡的概念研發也是一大看點。Google表示:“Android XR 的推出,讓我們向前邁出了一大步。”值得一提的是,這次居然是中國隊實力出場了!Xreal 攜手 Google 打造了 Project Aura,一款基於 Android XR 平台的智能眼鏡,預計內建 Gemini AI,具備廣視場、攝影機和麥克風。此外,Google 還將與三星、Gentle Monster、Warby Parker 合作開發其他 Android XR 智能眼鏡。這款眼鏡配備攝影機、麥克風和揚聲器,可與您的手機協同工作,無需掏口袋即可訪問應用程式。此外,可選配的內建螢幕可在需要時提供私密的實用資訊。眼鏡與 Gemini 配對後,能夠看到和聽到使用者的一舉一動,從而瞭解主人的處境,並記住其重要事項,並全天候提供幫助。今天的搶先體驗展示了 Android XR 眼鏡在實際場景中的運作方式,包括向好友傳送消息、預約、查詢路線、拍照等等。在演示中,兩人之間的即時語言翻譯,展現了這款眼鏡打破語言障礙的潛力,可以說是即時提供現實世界的字幕。AI Ultra 訂閱上線,每月250刀至於訂閱上,Google推出全新 AI Ultra 訂閱計畫,提供最高等級 AI 模型和更高使用額度,適用於 Gemini、NotebookLM、Flow 等應用,還包含 Project Mariner。寫在最後:亮點不是很多,但這不怪GoogleDeep Thinking、World Model、Action Intelligence、網頁智能體、AI瀏覽器、影視創作工具、AI Web UI、Android XR、Gemini+智能眼鏡,可以說這次大會是一個Google在全熱門賽道秀肌肉的大會。但憑個人看法而言,Google的優勢依舊是在多模態的進展上,不管是模型還是應用方面,都有不錯的性能和沉澱。而不足之處,則在於對於通用場景下的應用,明顯滯後於 OpenAI,比如 browser use 方面,將 Gemini 融入 Chrome 本可以更早一些。此外,應用的創新性沒有特別驚豔之處。通場看下來,一半以上都是已經發佈或預告過的產品。但這也不能怪Google,如果真的什麼都讓Google做了,AI創業者還有什麼機會可言呢?你說是嗎,劈柴哥?哦對了,今天晚上我們邀請了兩位技術大咖來到我們T前線的直播間一起來聊一聊今年的GoogleIO大會,這兩位大咖分別是:NETSTARS首席技術官陳斌、一汽大眾首席企業架構師武豔軍。 (51CTO技術堆疊)